GPT-5模型訓練遇難題開放互聯網數據不足

「數據是新石油」這個觀點曾由《經濟學人》（The Economist）提出，現在看來原來是正確不過的描述，因為可開採石油會有被用盡的一天，現在「數據」也面對同樣困局，GenAI 亦可能遇上新發展樽頸。

《華爾街日報》早前引述人工智能市場研究機構 Epoch 的觀點，指出目前 OpenAI 主導的 GPT-4，其大型語言模型（LLM）採用的詞元（Token）訓練素材多達 12 萬億個。該機構研究人員 Pablo Villalobos 認為，如果要跟隨目前 GenAI 的高速成長步伐，GPT-5 的 LLM 需要多達 60 萬億至 100 萬億的詞元，唯目前利用所有於互聯網或其他可存取途徑內，能獲得的高品質語言與圖像數據後，GPT-5 依然欠缺多達 10 萬億至 20 萬億的詞元缺口，才能訓練出有效的 LLM。Epoch 估計至 2028 年「高品質語言」供不應求的可能性高達 90%。

目前在公開互聯網中有意義與高品質數據，就如可被開採的石油一樣買少見少，大部分能夠輕易得到的數據與句字往往是殘缺不存，對訓練有效 LLM 毫無功用。在一般情況下，無論是私人用戶、商業機構以至社交網站，都不願意交出私人對話與數據來協助 LLM 模型訓練，預期這會令如日中天的 GenAI 科技發展帶來衝擊。

其他人也看

November 28, 2025 Brian Chan

朗廷酒店集團推三款 AI 助手　革新賓客體驗與內部營運

朗廷酒店集團宣布推出全新 AI 解決方案套件，涵蓋賓客服務、員工培訓及商業洞察三大範疇。新推出的三款 AI 助手支援逾 50 種語言互動及實時數據分析，目前正於全球 31 家酒店分階段推行，旨在透過數碼轉型優化營運效率並提升個人化住宿體驗。

A.I.

November 27, 2025 Brian Chan

解決投資零回報困局　Red Hat AI 3強化生產環境部署

Red Hat 正式推出 Red Hat AI 3，重點將分散式 AI 推理引入企業生產環境。新平台整合 vLLM 與 Kubernetes 技術，解決企業 AI 投資回報率低的痛點，並透過模型即服務（MaaS）及統一協作工具，加速代理式 AI（Agentic...

A.I.

November 11, 2025 Jim Chow

AI爬盡網絡內容 Cloudflare：必須設限

較早前推出以限制AI爬蟲的方案的Cloudflare，行政總裁Matthew Prince解釋，對AI設限並回饋創作者，可以鼓勵更多有意義的內容以填補LLM的不足，並有望擺脫流量崇拜。

A.I. 趨勢

其他人也看

朗廷酒店集團推三款 AI 助手 革新賓客體驗與內部營運

解決投資零回報困局 Red Hat AI 3強化生產環境部署

AI爬盡網絡內容 Cloudflare：必須設限

Follow us on SNS

朗廷酒店集團推三款 AI 助手　革新賓客體驗與內部營運

解決投資零回報困局　Red Hat AI 3強化生產環境部署